Step 1: Define the problem

Step 2: Data cleaning / preprocessing & Feature Engineering

Loại bỏ các biến thừa không cung cấp thông tin hữu ích nào cho việc phân tích

Data Formating

Loại bỏ các giá trị bị khuyết

Loại bỏ các giá trị trùng lặp

Đặt tên lại cho các cột

Tạo một biến phân loại cho thời gian

Phát hiện và loại bỏ outliers

=> Có thể không cần loại bỏ Outliers vì số lượng không đáng kể

Exploratory Data Analysis (EDA)

=> Tội phạm thuộc loại Larceny Theft, cao hơn đáng kể so với bất kỳ loại tội phạm nào khác

Phân tích theo Resolution

=> Hầu hết các sự cố đều đang được tiến hành xử lý

=> Ma túy, vi phạm giao thông và lệnh bắt giữ là 3 lý do hàng đầu cho các vụ bắt giữ

Phân tích theo Quận

=> Quận Central là nơi ghi nhận nhiều tội phạm nhất và quận Park là nơi ít tội phạm nhất ở San Francisco

=> Mặc dù có ít tội phạm hơn được ghi nhận ở quận Tenderlion nhưng tỷ lệ bắt giữ ở đây khá cao 36,13%

Phân tích theo Thời gian

=> Thứ 6 là ngày mà tội phạm được ghi nhận nhiều nhất, tiếp theo là Thứ 4. Chủ nhật là ngày ít tội phạm nhất

=> Hãy cẩn thận vào buổi tối. Gần 1/4 số vụ tội phạm xảy ra vào buổi tối

=> Buổi tối thường là lúc có nhiều vụ phạm tội, tối Thứ 6 đặc biệt tồi tệ và tối Chủ nhật tương đối tốt hơn

=> Tháng 1 là tháng có nhiều tội phạm nhất

=> Ngày 1/1 dường như là ngày có số tội phạm được ghi nhận cao nhất và ngày 25/12 là ngày có số tội phạm được ghi nhận ít nhất. Ngoài ra có thể thấy ngày 12 trong năm là ngày khá an toàn so với phần lớn các ngày còn lại

Phân tích Time Series

=> Vậy những ngày này liệu có phải là những ngày bình yên hay đây có lẽ chỉ là sơ suất nào đó của cơ quan cảnh sát. Từ biểu đồ trước đó cùng với phân tích này, ta có thể nhận thấy rõ điều có gì đó ở ngày 12 khiến cho tội phạm vào ngày này khá thấp

=> Có vẻ như tỷ lệ tội phạm không thay đổi nhiều trong những năm qua! Liệu nó có đúng cho các loại riêng lẻ? Ta sẽ thử với Larceny Theft

=> Nó thực sự không thay đổi gì nhiều

Phân tích theo Mô tả

Phân tích theo Phân bố không gian (Spatial Distribution)

=> Cặp tọa độ phổ biến nhất (-122.40733700000001, 37.78456014) là vị trí của Market St

=> Ta có thể thấy có nhiều tội phạm hơn ở phần đông bắc của San Francisco. Câu hỏi đặt ra rằng liệu điều này có luôn như vậy trong suốt các năm qua không ?

Ta sẽ xem liệu phân phối có bất kỳ thay đổi đáng kể nào không:

=> Có vẻ như phần đông bắc của San Francisco luôn là khu vực nguy hiểm nhất kể từ năm 2018. Ngoài ra, các đường nét cho thấy sự phân bố tội phạm xung quanh khu vực này đã mở rộng 1 chút về phía đông kể từ năm 2020

Trực quan hóa không gian địa lý

Step 3 : Model selection & Trainning

Step 4: Evaluate & test the model results & performance

Step 5: Deploy the model